ClutterDexGrasp (2025-06-17)

1. 서론: 로보틱스에서 인간 수준의 손재주라는 미해결 과제

본 보고서는 ClutterDexGrasp 시스템에 대한 심층 기술 분석을 제공한다. 이 시스템은 복잡하고 비정형적인 환경에서 로봇이 목표 객체를 정교하게 파지하는 능력, 즉 인간 수준의 손재주를 구현하려는 로보틱스 분야의 오랜 난제를 해결하는 데 있어 중요한 진전을 나타낸다.

1.1 조밀하고 비정형적인 혼란 속 파지의 정의

로보틱스 파지 연구의 최전선은 다수의 객체가 서로 물리적으로 접촉하거나 시야를 가리는 조밀하고 복잡한 환경(cluttered scene)에서, 여러 개의 손가락과 높은 자유도(Degrees of Freedom, DoF)를 가진 로봇 손을 이용해 특정 목표 객체를 집어 올리는 과업으로 정의된다.1 이는 단순히 단일 객체를 집거나 ‘가벼운 혼란’ 속에서 작업하는 것과는 근본적으로 다른 차원의 문제다.4 이러한 환경의 본질적인 복잡성은 다양한 객체의 기하학적 형태, 심각한 가림(occlusion) 현상, 그리고 주변 장애물과의 물리적 상호작용이 필수적인 동적 특성에서 비롯된다.1 특히, 20 자유도를 초과하는 정교한 로봇 손의 거대한 상태-행동 공간(state-action space)은 전통적인 계획 기반 알고리즘과 학습 기반 알고리즘 모두에게 엄청난 계산적, 탐색적 어려움을 안겨준다.6

1.2 기존 패러다임에 대한 비판적 검토와 그 한계

ClutterDexGrasp의 혁신을 이해하기 위해서는 이전 접근법들의 한계를 명확히 인식해야 한다. 기존 연구는 크게 두 가지 패러다임으로 나눌 수 있다.

첫째, 분석적 및 개방-루프(Open-Loop) 방법론이다. 이 접근법들은 정확한 3D 모델과 기하학적 분석에 기반하여 파지 자세를 계획한다.8 그러나 이러한 모델 기반의 정밀성은 역설적으로 그들의 가장 큰 약점이 된다. 현실 세계의 불확실성, 동적 변화, 그리고 불완전한 객체 모델에 매우 취약하여 강인한 성능을 보장하기 어렵다.1 특히 복잡한 환경에서는 주변 객체와의 상호작용을 고려하지 않고 단순히 정적인 파지 자세를 예측하는 데 그쳐, 실질적인 문제 해결 능력이 부족하다.1

둘째, 대규모 데이터 기반 모델이다. 최근 비전-언어-행동(Vision-Language-Action, VLA) 모델의 등장은 인상적인 일반화 가능성을 보여주었다.1 하지만 이 패러다임은 방대한 양의 실제 환경 시연(real-world demonstration) 데이터에 의존한다는 치명적인 한계를 가진다. 실제 로봇을 이용한 데이터 수집은 막대한 시간, 비용, 그리고 인간의 노력을 요구하며, 이는 기술의 확장성과 신속한 개발을 저해하는 심각한 병목 현상을 야기한다.1

이러한 기존 연구의 발전 과정은 ’모델 기반의 정밀성’과 ‘학습 기반의 일반화’ 사이의 근본적인 긴장 관계를 드러낸다. 초기 방법론은 명시적 모델링을 통해 정밀성을 추구했지만 비정형 환경에서 실패했다. 최근의 대규모 모델은 일반화에 성공했지만, 실제 데이터 수집이라는 지속 불가능한 비용을 치러야 했다. ClutterDexGrasp의 아키텍처는 이러한 딜레마에 대한 실용적인 종합으로 볼 수 있다. 즉, 시뮬레이션이라는 ‘완벽한 모델’ 환경을 활용하여 최적의 정책을 학습시킨 후, 진보된 기계학습 기법을 통해 이 정책을 불완전하고 부분적으로만 관찰 가능한 현실 세계로 이전하는 전략을 채택한 것이다.

1.3 Sim-to-Real의 필요성: 일반화를 위한 확장 가능한 경로

앞서 언급한 한계들을 극복하기 위한 전략적 대안으로 Sim-to-Real 전이 파이프라인이 부상했다.1 이 접근법의 핵심 가치는 물리적 실험의 비용과 복잡성 없이 시뮬레이션 내에서 방대한 양의 학습 데이터를 생성함으로써, 실제 데이터 수집에 대한 의존도를 획기적으로 낮추는 데 있다.11 그러나 시뮬레이션과 현실 사이의 ’현실 격차(reality gap)’는 이 접근법의 성공을 가로막는 고질적인 문제로 남아있었다.3

따라서 본 보고서의 핵심 논지는 다음과 같다. ClutterDexGrasp는 복잡한 환경에서의 목표 지향적 정교한 파지를 위한 제로샷(Zero-Shot), 폐쇄-루프(Closed-Loop) Sim-to-Real 전이 시스템을 최초로 성공시킨 사례라는 것이다.1 이 주장은 단순히 새로운 파지 알고리즘의 개발을 넘어, 복잡한 로봇 기술을 학습하고 현실에 적용하는 방식에 대한 근본적인 패러다임 전환을 의미하며, 이어지는 모든 섹션에서 이를 뒷받침하는 기술적 세부 사항과 분석을 제공할 것이다.

2. 시스템 아키텍처: 2단계 교사-학생 증류 프레임워크

ClutterDexGrasp 시스템의 핵심에는 혁신적인 2단계 교사-학생(Teacher-Student) 프레임워크가 자리 잡고 있다. 이 아키텍처는 복잡한 로봇 학습 문제를 두 개의 하위 문제로 분해하여 각각에 최적화된 해결책을 적용함으로써 전례 없는 성능을 달성한다.

2.1 단계 패러다임의 이론적 근거

이 아키텍처를 채택한 근본적인 동기는 최적 제어 정책의 발견 문제와 강인한 인식 및 실제 환경 실행 문제를 분리하는 데 있다.1 높은 자유도를 가진 손을 제어하기 위해 포인트 클라우드와 같은 고차원 시각 입력을 사용하여 단일 강화학습(Reinforcement Learning, RL) 정책을 직접 훈련하는 것은 계산적으로 엄청나게 비효율적이며 학습 과정이 불안정하기로 악명이 높다.3 교사-학생 접근법은 이러한 문제를 우아하게 회피한다.

이는 로보틱스에서 ‘신용 할당(credit assignment)’ 문제를 해결하는 강력한 패러다임으로 해석될 수 있다. 교사는 완벽한 정보를 바탕으로 어떤 행동이 성공으로 이어졌는지에 대한 ‘제어 신용 할당’ 문제를 해결한다. 반면 학생은 모방 학습을 통해, 교사가 성공적인 행동을 취했던 상태에 해당하는 시끄러운 포인트 클라우드의 특징이 무엇인지에 대한 ‘인식 신용 할당’ 문제를 해결한다. 이처럼 문제를 분리함으로써, 각 구성 요소는 특화된 도구(제어를 위한 강화학습, 인식을 위한 생성 모델 기반의 모방 학습)를 통해 더욱 효과적으로 해결될 수 있다.

2.2 전지적 교사: 특권 정보를 이용한 정책 학습

교사 정책은 완벽한 환경 상태 정보(ground-truth state)에 접근할 수 있는 시뮬레이션 내에서 전적으로 강화학습을 통해 훈련된다.1 교사의 역할은 인식의 불확실성이 배제된 이상적인 환경에서 최적의 동적 상호작용 전략을 학습하는 것이다.

2.2.1 새로운 장면 표현 방식

교사 정책 학습의 핵심적인 설계 결정 중 하나는 포인트 클라우드를 직접 사용하지 않는다는 점이다. 대신, **기하학적 및 공간적으로 임베딩된 새로운 장면 표현(geometry and spatially-embedded scene representation)**에 의존한다.1 이 상태 표현은 각 손가락 관절에서 목표 객체 표면의 샘플링된 200개 지점까지의 거리 집합(d_{pos})과 주변 비-목표 객체 표면의 샘플링된 50개 지점까지의 거리 집합(d_{neg})으로 구성된다.11 이러한 추상화는 관찰 공간의 차원을 극적으로 축소시켜 강화학습 문제를 다루기 쉽게 만들고, 학습의 초점을 순수한 인식 문제에서 동역학 및 상호작용 전략으로 이동시킨다.

2.2.2 다단계 커리큘럼: 복잡한 행동의 단계적 학습

ClutterDexGrasp는 정교한 전략을 점진적으로 학습시키기 위해 세심하게 설계된 3단계 커리큘럼을 사용한다.5 이는 처음부터 복잡한 환경에서 학습할 때 발생하는 탐색의 비효율성과 불안정성을 극복하는 핵심적인 장치다. 아래 표는 이 커리큘럼 학습 과정의 구조를 상세히 보여준다.

표 1: ClutterDexGrasp 커리큘럼 학습 과정 분석

단계목표환경 및 관찰 설정핵심 학습 결과출처
1단계: 일반 파지기본적인 정교한 조작 기술 습득.단일 목표 객체만 존재. 관찰 및 보상 함수에서 비-목표 객체 관련 요소는 0으로 처리(zero-padding).주변 방해 요소 없이 안정적으로 기본적인 파지 행동을 학습.11
2단계: 전략적 혼란 환경 파지복잡한 환경에서 목표 객체 파지 능력 학습.다양한 밀도의 혼란 환경에서 1단계 정책을 미세 조정(fine-tuning).목표에 도달하기 위해 장애물을 부드럽게 밀어내는 등, 접촉이 풍부한(contact-rich) 전략적 행동의 발현.11
3단계: 상호작용 안전성안전하고 손상을 유발하지 않는 실제 환경 적용 보장.훈련 중 힘의 임계값을 점진적으로 강화. 임계값 초과 시 페널티 부과 및 에피소드 조기 종료.부드럽고 인간과 유사한 상호작용 힘. 공격적이거나 파괴적인 행동 회피.5

2.3 체화된 학생: 3D 확산 정책(DP3)으로의 증류

학생 정책의 역할은 단일 카메라로부터 얻는 부분적이고 노이즈가 섞인 감각 데이터만을 사용하여 실제 환경에서 작동하는 것이다.1

2.3.1 모방 학습을 통한 지식 이전

교사가 학습한 전문 지식은 모방 학습(imitation learning)을 통해 학생 정책으로 증류(distill)된다.1 교사는 다양한 수준의 객체 밀도를 가진 환경에서 전문가 시연 데이터셋을 생성하고, 학생은 이 데이터를 바탕으로 교사의 행동을 모방하도록 학습한다.5 이 과정은 교사가 특권 정보를 통해 학습한 최적의 행동 전략을, 학생이 실제 환경에서 얻을 수 있는 불완전한 관찰(부분적 포인트 클라우드)과 연결시키는 다리 역할을 한다.

2.3.2 D 확산 정책 (DP3)

학생 정책은 DP3(3D Diffusion Policy) 모델로 구현된다.1 이 모델 선택은 매우 중요한 의미를 가진다. 확산 정책은 생성 모델의 일종으로, 복잡하고 다봉적(multi-modal)인 행동 분포를 모델링하는 데 매우 적합하다.11 정교한 파지 작업에서는 성공적인 결과를 이끌어내는 여러 유효한 관절 구성이 존재할 수 있는데, 확산 정책은 이러한 다양성을 효과적으로 표현할 수 있다. 또한, 이 모델은 부분적인 포인트 클라우드 관찰에 직접적으로 작동하도록 설계되어, 실제 복잡한 환경에서 필연적으로 발생하는 객체 가림과 센서 노이즈에 강인한 성능을 보인다.1

3. 제로샷 Sim-to-Real 전이를 위한 핵심 기술

ClutterDexGrasp의 가장 중요한 성과인 ‘제로샷’ 전이는 단일 기술이 아닌, 시뮬레이션과 현실 사이의 간극을 체계적으로 좁히기 위한 여러 핵심 기술들의 집약적인 결과물이다. 이 성공은 마법이 아니라, 세심한 공학과 도메인 정렬(domain alignment)의 산물이다.

3.1 현실 격차 최소화: 관찰과 동역학의 이중 접근

Sim-to-Real 전이의 근본적인 문제는 시뮬레이션과 현실 사이의 데이터 분포 차이(distributional shift)를 극복하는 것이다.3 ClutterDexGrasp는 이 문제를 **관찰(observation)**과 **동역학(dynamics)**이라는 두 가지 핵심 영역에서 동시에 접근하여 해결한다.

3.1.1 관찰 정렬

관찰 정렬의 목표는 학생 정책에 입력되는 감각 데이터가 시뮬레이션과 현실 양쪽에서 최대한 유사하도록 만드는 것이다.

  • 포인트 클라우드 정렬 (Point Cloud Alignment): 이 과정은 실제 카메라에서 관찰된 포인트 클라우드를 합성된 고밀도의 로봇 팔 및 손 포인트 클라우드와 증강(augment)하는 작업을 포함한다. 이후, 시뮬레이션과 현실 모두에서 일관된 전처리 과정(관심 영역 절삭, 다운샘플링, 로봇 기준 좌표계로의 변환)을 적용하여 입력 데이터의 형태와 구조를 통일시킨다.11 이는 학생 정책이 두 도메인 간의 시각적 차이에 혼동되지 않고 일관된 특징을 학습할 수 있도록 보장한다.

3.1.2 동역학 정렬

동역학 정렬은 시뮬레이션의 물리 엔진이 실제 로봇의 움직임과 최대한 가깝게 작동하도록 만드는 과정이다.

  • 시스템 식별 (System Identification): 이는 매우 중요한 반복적 보정(iterative calibration) 과정이다. 로봇 팔과 손의 물리적 파라미터(예: 마찰 계수, 관절 댐핑, 질량 등)를 시뮬레이션 내에서 최적화한다. 이 최적화는 실제 로봇이 수행한 궤적과 시뮬레이션 상의 궤적이 거의 일치할 때까지 계속되며, 이를 통해 시뮬레이터가 현실 세계의 물리적 특성을 매우 높은 충실도로 모방하게 된다.11

이러한 접근법은 ’제로샷 Sim-to-Real’이라는 용어에 대한 깊은 이해를 제공한다. 더 정확하게는 ’광범위한 도메인 정렬을 통한 제로샷 정책 학습’이라고 표현할 수 있다. 정책 자체는 실제 데이터로 학습되지 않지만, 정책이 학습되는 환경인 시뮬레이터가 현실을 모방하도록 세심하게 보정된다. 이는 ’현실 격차’를 극복하기 위해 정책의 강인함에만 의존하는 것이 아니라, 애초에 그 격차 자체를 양쪽(관찰과 동역학)에서 체계적으로 좁히는 전략이다.

3.2 안전성과 창발적 지능의 역할

3.2.1 현실 적용의 전제조건으로서의 상호작용 안전성 커리큘럼

앞서 설명한 3단계 안전성 커리큘럼은 단순한 훈련 기법을 넘어, 실제 환경 배포를 가능하게 하는 핵심적인 전제조건이다. 과도한 힘에 페널티를 부과함으로써, 학습된 정책은 본질적으로 부드럽고 비파괴적인 상호작용을 선호하게 된다.5 이는 환경과 물리적 접촉이 불가피한 로봇 정책에 있어 필수적인 안전 장치 역할을 한다.

3.2.2 정교한 전략의 창발(Emergence)

ClutterDexGrasp 연구의 가장 흥미로운 발견 중 하나는, 복잡하고 인간과 유사한 행동들이 명시적으로 프로그래밍되지 않았음에도 불구하고 학습 과정에서 자연스럽게 나타난다는 점이다.1 이러한 창발적 행동들은 다음과 같다.

  • 목표 객체로 가는 경로를 확보하기 위해 장애물을 부드럽게 밀거나 옆으로 치우는 행동.11
  • 여러 손가락을 조화롭게 사용하여 객체를 다루는 다중-손가락 협응 및 핑거 게이팅(finger gaiting).1

이러한 지능적인 행동의 등장은 강화학습 에이전트가 커리큘럼 기반의 제약 조건 하에서 보상 함수를 최적화하는 과정에서 나타나는 필연적인 결과다. 이는 시스템이 단순히 파지 자세를 찾는 것을 넘어, 주어진 환경의 물리적 제약을 이해하고 이를 활용하는 동적인 문제 해결 능력을 학습했음을 시사한다.

4. 실험적 검증 및 성능 분석

본 섹션에서는 ClutterDexGrasp의 성능을 정량적 및 정성적으로 평가하고, 시스템의 강인성과 일반화 능력에 대한 주장을 뒷받침하는 실험적 증거를 종합적으로 제시한다.

4.1 혼란 환경 파지 평가 지표

이 연구에서 사용된 주요 성능 지표는 **파지 성공률(Grasp Success Rate)**로, 목표 객체를 성공적으로 집어 들어 올리는 경우를 성공으로 정의한다.11 이 분야의 연구에서는 파지 안정성, 임무 효율성(장애물 제거 시간), 외부 방해에 대한 강인성 등 다양한 추가 지표가 고려될 수 있으나 17, 본 시스템의 핵심 기여인 제로샷 전이의 성공 여부를 명확히 보여주는 데에는 성공률이 가장 직접적인 척도가 된다.

4.2 정량적 성능 결과

연구에서 보고된 주요 성능 수치는 아래 표와 같이 요약될 수 있다. 이 데이터는 시스템의 효과성을 뒷받침하는 핵심적인 경험적 증거를 제공한다.

표 2: ClutterDexGrasp 정량적 성능 요약

환경테스트 조건보고된 성공률출처
시뮬레이션학습에 사용된 객체 및 배치 (조밀한 혼란 환경)91.9%11
시뮬레이션학습에 사용되지 않은 새로운 객체 (조밀한 혼란 환경)92.6%11
실제 환경제로샷 전이 (복잡하고 조밀한 혼란 환경)83.9% - 85%11

시뮬레이션 환경에서 학습에 사용된 객체(seen objects)와 새로운 객체(unseen objects) 사이의 성공률 차이가 거의 없다는 점(91.9% vs 92.6%)은 주목할 만하다.11 이는 교사 정책이 학습한 전략이 특정 객체 형상에 과적합(overfitting)되지 않고, 일반적인 기하학적 특성에 기반한 범용적인 파지 능력을 갖추었음을 강력하게 시사한다. 교사가 사용하는 거리 기반의 추상적 표현 방식이 이러한 일반화 성능의 핵심 요인으로 작용했을 가능성이 높다. 그리고 이 뛰어난 일반화 능력은 학생 정책에 성공적으로 증류되어, 실제 환경에서도 83.9%라는 높은 제로샷 성공률로 이어진다.11 시뮬레이션에서의 약 92% 성공률과 실제 환경에서의 약 84% 성공률 사이의 차이는, 철저한 도메인 정렬 절차를 거친 후에도 여전히 남아있는 미세한 현실 격차의 ’비용’으로 해석될 수 있다.

4.3 정성적 분석: 학습된 행동의 본질

정량적 수치 외에도, 시스템이 보여주는 행동의 질적 측면은 그 성능에 대한 깊은 이해를 제공한다. ClutterDexGrasp는 단순한 파지 실행기를 넘어, 동적인 폐쇄-루프 추론 능력을 갖춘 시스템으로서의 면모를 보인다. 관찰된 가장 대표적인 행동은 “인간과 유사한” 상호작용으로, 목표물에 접근하기 위해 다른 물체를 부드럽게 밀어내는 전략이다.11 이는 시스템이 사전에 계획된 경로를 따르는 것이 아니라, 실시간으로 환경과의 상호작용을 통해 문제를 해결하고 있음을 보여준다. 이러한 행동은 시스템이 물리적 상호작용의 결과를 어느 정도 예측하고, 자신의 목표를 달성하기 위해 환경을 의도적으로 변화시키는 능력을 학습했음을 의미한다.

5. 비판적 분석, 비교 환경 및 미래 방향

마지막으로, 본 섹션에서는 ClutterDexGrasp를 최신 기술 동향의 맥락에서 비판적으로 평가하고, 시스템의 한계를 명시하며, 로보틱스의 미래에 미칠 광범위한 영향을 논의한다.

5.1 최신 기술(SOTA) 내에서의 위치

ClutterDexGrasp의 혁신성을 명확히 하기 위해, 동시대의 다른 최첨단 정교한 파지 시스템들과의 비교 분석이 필요하다. 아래 표는 주요 기술적 축을 기준으로 각 시스템의 특징을 비교한다.

표 3: 최신 정교한 파지 모델의 특징 기반 비교

시스템학습 패러다임주요 데이터 소스핵심 혁신실제 환경 전이 방식관찰 공간
ClutterDexGraspRL + 모방 학습 (교사-학생)절차적으로 생성된 시뮬레이션혼란 환경을 위한 제로샷 Sim-to-Real 폐쇄-루프 정책제로샷 (시스템 식별 및 정렬)부분적 포인트 클라우드 (학생)
DexGraspNet 2.0 22생성 모델 (확산)대규모 합성 데이터셋 (4억 2700만 개 파지)생성적 파지 학습을 위한 초거대 데이터 생성제로샷 (테스트 시점 깊이 복원)명시되지 않음 (포인트 클라우드/깊이 추정)
ResDex 23다중-작업 RL (전문가 혼합 잔차 학습)시뮬레이션 (DexGraspNet 데이터셋)기하학-불가지론적 기본 정책 조합을 통한 효율적 학습명시되지 않음 (시뮬레이션 일반화에 초점)자기수용감각 (기본 정책), 비전 (잔차)
ILAD 10모방 학습인간 파지 어포던스 모델로부터 생성된 시연인간 어포던스 사전 지식을 활용한 다양한 전문가 데이터 생성명시되지 않음 (시뮬레이션 일반화에 초점)포인트 클라우드 + 손 관절 상태

이 비교를 통해 중요한 기술적 동향이 드러난다. ClutterDexGrasp, DexGraspNet, ILAD와 같은 최신 모델들은 모두 실제 데이터 수집에서 벗어나 대규모 합성 데이터 생성으로 전환하고 있다는 공통점을 보인다. 하지만 데이터 생성의 철학에서 차이가 나타난다. DexGraspNet은 거대한 정적 데이터셋을 구축하는 ‘데이터 중심’ 접근을 취한다. ILAD는 인간 어포던스라는 사전 모델로부터 동적인 시연을 생성한다. 반면 ClutterDexGrasp는 강화학습 에이전트인 ’교사’를 통해 능동적으로 데이터를 탐색하고 생성하는 ’에이전트 중심’의 데이터 생성 파이프라인을 구축했다. 이는 단순히 합성 데이터를 사용하는 것을 넘어, 더 효과적이고 목표 지향적인 데이터를 자동으로 생성하는 지능형 에이전트를 개발하는 방향으로 연구가 진화하고 있음을 시사한다. ClutterDexGrasp는 이러한 새로운 패러다임의 강력한 초기 사례다.

5.2 명시된 한계와 향후 연구 방향

모든 기술적 성과와 마찬가지로 ClutterDexGrasp 역시 한계를 가지고 있으며, 이는 미래 연구를 위한 중요한 방향을 제시한다.12

  • 객체 제약: 현재 시스템은 강체(rigid object)에서 최상의 성능을 보인다. 부드럽거나 변형 가능한 물체, 또는 극도로 불규칙한 형태의 물체에 대해서는 성능이 저하될 수 있다.
  • 계산 비용: 교사 정책 훈련과 학생 정책 증류에 필요한 계산 자원은 여전히 상당하다.
  • 잔존하는 현실 격차: 아무리 정교한 보정 과정을 거치더라도, 시뮬레이션이 현실 세계의 모든 물리적 가변성을 완벽하게 포착하는 것은 불가능하다.

이러한 한계들은 다음과 같은 구체적인 향후 연구 방향으로 이어진다. 변형 가능한 객체를 다루기 위해 촉각 센서 정보를 통합하는 연구, 더 효율적인 정책 아키텍처 개발, 그리고 실제 환경에서 지속적으로 학습하며 현실 격차를 더욱 좁혀나가는 온라인 적응(online adaptation) 방법론 탐구가 필요하다.

5.3 광범위한 영향 및 결론

결론적으로, ClutterDexGrasp는 정교한 로봇 조작 분야에 다음과 같은 중요한 기여를 했다.

  • 데이터 의존성 감소: 실제 환경 시연의 필요성을 제거함으로써, 고급 조작 기술 개발의 장벽을 획기적으로 낮추고 기술의 접근성과 확장성을 높였다.11
  • 안전성 및 강인성 향상: 명시적인 안전성 커리큘럼은 실제 환경에 배포하기에 적합한 부드럽고 예측 가능한 행동을 생성한다.11
  • 기술적 청사진 제공: 기하학적 표현, 커리큘럼 학습, 확산 정책, 그리고 Sim-to-Real 기술을 효과적으로 결합한 이 시스템의 파이프라인은 향후 복잡한 조작 과제 연구를 위한 강력한 본보기(template)를 제공한다.11

이 연구의 중요성은 로보틱스 분야 최고 학회 중 하나인 CoRL 2025에서 구두 발표(상위 약 5%의 채택률)로 선정되었다는 사실을 통해 다시 한번 확인된다.24 ClutterDexGrasp가 제시한 원칙과 방법론은 물류, 제조, 가정 보조 등 정교한 객체 조작이 필수적인 다양한 산업 분야에서 로봇의 역할을 재정의할 잠재력을 지니고 있다.12 이 시스템은 완전 자율 로봇이 인간의 일상 환경 속으로 들어오는 미래를 향한 중요한 기술적 이정표를 세웠다.

6. 참고 자료

  1. ClutterDexGrasp: A Sim-to-Real System for General Dexterous Grasping in Cluttered Scenes | Request PDF - ResearchGate, https://www.researchgate.net/publication/392766133_ClutterDexGrasp_A_Sim-to-Real_System_for_General_Dexterous_Grasping_in_Cluttered_Scenes
  2. [2506.14317] ClutterDexGrasp: A Sim-to-Real System for General Dexterous Grasping in Cluttered Scenes - arXiv, https://arxiv.org/abs/2506.14317
  3. Statistics on paper publications which addressed or mentioned robotic… - ResearchGate, https://www.researchgate.net/figure/Statistics-on-paper-publications-which-addressed-or-mentioned-robotic-in-hand_fig1_385558002
  4. Robot Dexterous Grasping in Cluttered Scenes Based on Single-View Point Cloud, https://www.researchgate.net/publication/392251498_Robot_Dexterous_Grasping_in_Cluttered_Scenes_Based_on_Single-View_Point_Cloud
  5. ClutterDexGrasp: A Sim-to-Real System for General Dexterous Grasping in Cluttered Scenes - arXiv, https://arxiv.org/html/2506.14317v3
  6. An overview of learning-based dexterous grasping: recent advances and future directions, https://www.researchgate.net/publication/393437631_An_overview_of_learning-based_dexterous_grasping_recent_advances_and_future_directions
  7. Learning Dexterous Grasping with Object-Centric Visual Affordances - Texas Computer Science, https://www.cs.utexas.edu/~grauman/papers/graff-ICRA2021.pdf
  8. Grasp Synthesis in Cluttered Environments for Dexterous Hands - Personal Robotics Lab, https://personalrobotics.cs.washington.edu/publications/berenson2008grasp.pdf
  9. Object-Independent Grasping in Heavy Clutter - MDPI, https://www.mdpi.com/2076-3417/10/3/804
  10. Learning Generalizable Dexterous Manipulation from Human Grasp Affordance, https://proceedings.mlr.press/v205/wu23a/wu23a.pdf
  11. ClutterDexGrasp: A Sim-to-Real System for General Dexterous Grasping in Cluttered Scenes | alphaXiv, https://www.alphaxiv.org/overview/2506.14317v2
  12. ClutterDexGrasp: A Sim-to-Real System for General Dexterous Grasping in Cluttered Scenes | AI Research Paper Details - AIModels.fyi, https://www.aimodels.fyi/papers/arxiv/clutterdexgrasp-sim-real-system-general-dexterous-grasping
  13. Jiyao Zhang - CatalyzeX, https://www.catalyzex.com/author/Jiyao%20Zhang
  14. Zeyuan Chen’s research works - ResearchGate, https://www.researchgate.net/scientific-contributions/Zeyuan-Chen-2313781015
  15. Tianhao Wu - CatalyzeX, https://www.catalyzex.com/author/Tianhao%20Wu
  16. Hao Dong - CatalyzeX, https://www.catalyzex.com/author/Hao%20Dong
  17. Benchmarking Multi-Object Grasping - arXiv, https://arxiv.org/html/2503.20820v2
  18. Evaluating the Efficacy of Grasp Metrics for Utilization in a Gaussian Process-Based Grasp Predictor, https://web.engr.oregonstate.edu/~balasubr/pub/Balasubramanian-Grasping-IROS-2014.pdf
  19. Deep Reinforcement Learning-Based Robotic Grasping in Clutter and Occlusion - MDPI, https://www.mdpi.com/2071-1050/13/24/13686
  20. Learning to Grasp in Clutter with Interactive Visual Failure Prediction - Michael Murray, https://www.mmurray.com/papers/aurmr_hitl_icra24.pdf
  21. Volumetric Grasping Network: Real-time 6 DOF Grasp Detection in Clutter - Proceedings of Machine Learning Research, https://proceedings.mlr.press/v155/breyer21a/breyer21a.pdf
  22. [2410.23004] DexGraspNet 2.0: Learning Generative Dexterous Grasping in Large-scale Synthetic Cluttered Scenes - arXiv, https://arxiv.org/abs/2410.23004
  23. Efficient Residual Learning with Mixture-of-Experts for Universal Dexterous Grasping, https://www.researchgate.net/publication/388894013_Efficient_Residual_Learning_with_Mixture-of-Experts_for_Universal_Dexterous_Grasping
  24. Qiyang Yan, https://qiyangyan.github.io/web/
  25. CoRL 2025 Conference | OpenReview, https://openreview.net/group?id=robot-learning.org/CoRL/2025/Conference&referrer=%5BHomepage%5D(%2F)
  26. Main Conference - CoRL 2025, https://www.corl.org/program/main-conference